閒聊
鐵人賽至目前要經過一半了,覺得時間過的好快。
今天就讓我們一起回顧半個月以來都學了些什麼吧!
Python環境設定
Python 語法
if-elif-else
。處理CSV文件
Chrom 開發工具
Requests
Python HTTP庫(外部函式庫),具備 GET
、POST
請求用法。
HTTPS 狀態代碼
狀態代碼 | 說明 |
---|---|
200 | 網頁正常 |
301 | 網頁搬家,會重新導向新的URL |
302 | 暫時移到新位置 |
400 | 錯誤的要求 |
401 | 未授權,需攜帶憑證 |
403 | 沒有權限 |
404 | 找不到網頁 |
500 | 伺服器錯誤 |
502 | 伺服器某個服務沒有正確執行 |
503 | 伺服器暫時無法處理請求(流量附載過大) |
504 | 伺服器沒有回應 |
Requests-HTML
擁有Rquests請求功能,也具有清洗功能。
支援功能
1.JavaScript
2.CSS選擇器
3.Xpath選擇器
4.自定義模擬User-Agent
5.自動追蹤定向
6.Cookie持久化
7.非同步請求
資料定位
Pandas模組
專門為編寫Python的外部模組,主要執行數據處理跟分析。
BeautifulSoup
是Python的函式庫,可以從HTML或XML檔案中分析資料,也可以拿來修復錯誤文件。
常用著名解析HTML文件的方法
1.html.parser:相容性較不好。
2.lxml:速度快,相容性佳。
3.html5lib:速度較慢,但解析能力強,本篇會使用這個方法。
定位
爬蟲種類
爬進PTT八卦版
get
請求結語
原來半個月可以學習這麼多東西!
明天要回到爬蟲的世界,繼續前進。
明天!
【Day 18】動態網頁爬蟲-Selenium(1/2)